基于 Bi-LSTM 和 CRF 的 中 文 命 名 实体 识别 方法 实现 


姓名 : 焦 新 宇 ”班级 : 生 研 2302 学 号 : 2023201249 


一 、 研 究 背 景 
1.1 研究 背景 与 意义 

命名 实体 识别 (NER，Named Entity Recognition) 是 NLP 众多 高 层 应 用 通用 的 基 
础 任务 之 一 , 其 主要 目标 是 从 文本 中 识别 和 分 类 具有 特定 意义 的 实体 。 这 些 实体 通常 包 
括 人 物 、 组 织 、 地 点 、 日期、 时 间 、 货 币 、 百 分 比 等 具体 的 命名 实体 。 在 诸如 信息 检索 、 
机 器 翻译 、 问 答 系 统 等 众多 NLP 技术 中 担任 着 非常 重要 的 角色 。 为 了 解决 这 些 挑战 ， 
研究 者 和 从 业者 使 用 了 各 种 技术 , 包括 基于 规则 的 方法 、 机 器 学 习 方法 (如 条 件 随 机 场 、 
序列 标注 模型 ) 以 及 最 近 流 行 的 深度 学 习 方 法 。 

1.2 相关 研究 现状 

NER 初期 的 研究 中 ， 因 为 可 供 研究 的 数据 规模 较 小 ， 采 用 的 方法 主要 是 基于 人 工 规 
则 的 系统 来 识别 实体 , 这 些 系统 中 的 人 工 规则 是 由 语言 学 知识 丰富 的 专家 们 对 命名 实体 
的 语法 词法 构成 、 上 下 文 搭配 及 用 词 规律 等 进行 分 析 后 研究 制定 而 成 。 

中 期 的 研究 中 基于 概率 与 统计 的 方法 成 为 研究 人 员 使 用 的 主流 方法 ,利用 好 统计 学 
和 概率 学 知识 针对 具体 任务 设计 模型 , 然后 从 大 量 标注 好 的 数据 中 进行 监督 学 习 后 获得 
一 个 训练 好 的 模型 ,最 后 使 用 训练 好 的 模型 对 句子 中 的 命名 实体 进行 识别 。 常用 的 统计 
学 模型 有 隐 马 尔 可 夫 模型 、 条 件 随 机 场 、 支 持 向 量 机 等 。 

近年 来 ， 基 于 深度 学 习 的 NER 方法 通过 构建 人 工 神 经 网 络 对 非 线 性 过 程 进行 建 模 ， 
可 以 在 不 同 的 数据 集 上 自动 学 习 抽象 特征 , 取得 了 与 统计 学 模型 相当 的 效果 , 甚至 大 部 
分 情况 超过 了 统计 学 模型 。 而 且 深 度 学 习 方法 对 人 工 特征 的 依赖 程度 更 低 ， 跨 领域 适应 
性 也 比较 强 。 

1.3 本 文 研 究 内 容 

实体 识别 (NER) 的 具体 目标 是 从 给 定 的 文本 中 识别 和 分 类 出 具有 特定 意义 的 实体 。 
这 些 实体 可 以 是 文本 中 的 任何 命名 实体 ， 通 常 包括 以 下 几 类 : 1. 人 物 : 例如 ,“" 江 小 和 白 "; 
2. 组 织 : 例如 ,， "人 民 代 表 大 会 " ; 3. 地 点 : 例如 ， "北京 "; 4. 日 期 : 例如 ， "2023 年 "。 

NER 的 目标 不 仅仅 是 识别 这 些 实体 ， 还 要 对 它们 进行 分 类 ， 即 确定 实体 属于 上 述 
哪 一 类 。 因 此 ，NER 的 输出 通常 是 一 系列 实体 标签 ， 每 个 标签 都 对 应 文本 中 的 一 个 实 
体 ， 同 时 标明 了 实体 的 类 型 。 在 本 任务 中 ， 主 要 通过 性 能 、 模 型 特性 等 目标 深入 了 解 深 
度 学 习 方法 的 NER 模型 在 不 同方 面 的 性 能 表现 ， 为 实际 应 用 中 的 选择 提供 有 价值 的 参 
考 。 

二 、 相 关 理论 模型 
2.1 条 件 随 机 场 

中 文 命 名 实体 识别 任务 中 常 采 用 BIO 标注 法 。 命 名 实体 识别 可 以 看 作 序 列 标注 任 
务 来 处 理 。 在 序列 标注 中 常 使 用 线性 链条 件 随机 场 。 对 于 一 个 由 n 个 字符 构成 的 句子 
序列 X=(x1,X2..,.n)， 标 注 序列 Y=(y1ly2..yn),， 令 每 个 字符 的 标注 标签 y ; 都 在 预 设 定 的 标 
签 中 任 选 其 一 。 当 为 每 个 字符 x 都 标注 了 标签 y ; 后 ,此 时 Y 就 形成 了 一 个 随机 场 。 进 一 
步 的 , 当 为 标签 的 选择 方式 加 一 个 限制 条 件 : 标签 yi 只 与 其 上 一 个 标签 yi-1 有 关 ， 此 时 
随机 场 称 作 马 尔 可 夫 随 机 场 。 对 于 马尔 可 夫 随 机 场 中 的 两 个 参数 ， 输 入 序列 K、 标 注 序 
列 Y，X 是 已 给 定 的 文字 序列 ， 此 时 的 Y 是 在 给 定 X 的 情况 下 的 序列 标注 输出 ， 于 是 
P(YIX) 便 构成 一 个 条 件 随 机 场 。CRF 需要 通过 定义 合适 的 特征 特征 函数 (通常 使 用 实 值 
函数 ) 作为 特征 函数 来 表示 转移 特征 函数 和 状态 特征 函数 。 

2.2 长 短期 记忆 网 络 

LSTM 网 络 是 基于 RNN 改进 的 基本 了 网络， 其 在 RNN 的 神经 单元 中 设置 了 各 种 门 控 
记忆 单元 ,用 来 控制 当前 时 刻 的 输入 以 及 上 一 时 刻 的 输出 。LSTM 单元 在 训练 时 ， 当 前 时 
刻 的 单元 可 以 通过 遗忘 门 、 输 出 门 以 及 输入 门 来 控制 上 一 个 时 刻 的 输出 、 当 前 时 刻 的 输 


入 以 及 贯穿 整个 网 络 所 截止 到 当前 时 刻 的 状态 。LSTM 通过 三 个 门 控 单 元 ， 使 得 LSTM 
网 络 具 备 选择 记忆 的 功能 。 
2.3 Bi-LSTM -CRF 模型 

Bi-LSTM-CRF 模型 是 将 条 件 随机 场 CRF 和 双向 长 短 记忆 网 络 (Bidirectional 
long-term and short-term memory，Bi-LSTM) 结 合 起 来 的 深度 学 习 命 名 实体 识别 模型 ， 
模型 的 结构 一 共 可 分 为 3 层 ， 崩 入 层 、Bi-LSTM 层 、CRF 层 ， 模 型 的 整体 结构 如 图 1 所 
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图 1. Bi-LSTM-CRF 模型 

蓄 入 层 :“ 向 量化 "， 主 要 作用 是 将 高 维 稀疏 向 量 转化 为 稠密 向 量 ， 从 而 方便 下 游 模 
型 处 理 。 

Bi-LSTM 层 : LSTM 是 RNN 的 一 种 ， 由 于 其 设计 的 特点 ， 非 常 适合 用 于 对 时 序数 
据 的 建 模 ， 如 文本 数据 。Bi-LSTM 是 由 前 向 LSTM 与 后 向 LSTM 组 合 而 成 。 两 者 在 自 
然 语言 处 理 任务 中 都 常 被 用 来 建 模 上 下 文 信息 。 利 用 LSTM 对 句子 进行 建 模 还 存在 一 个 
问题 : 无 法 编码 从 后 到 前 的 信息 。 通 过 Bi-LSTM 可 以 更 好 的 捕捉 双向 的 语义 依赖 。 

CRF 层 : 主要 作用 是 对 Bi-LSTM 层 的 输出 进行 规范 ， 避 免 出 现 一 些 不 合理 的 序列 。 
在 Bi-LSTM 网 络 生 成 素 有 的 概率 转移 向 量 后 ， 概 率 转 移 向 量 和 标签 就 组 成 了 一 个 条 件 
随机 场 。 当 模型 以 减少 目标 损失 函数 为 优化 目标 训练 完毕 后 ，CRF 层 通过 维特 比 算法 从 
整个 条 件 转 移 和 矩阵 中 找到 一 条 最 合理 的 序列 作为 预测 标签 , 维特 比 算法 是 一 个 动态 规划 
(Dynamic Programming，DP) 算 法 。 

优化 算法 : 当 在 训练 神经 网 络 时 ， 会 出 现 这 样 的 情况 : 模型 用 训练 数据 测试 时 有 较 
高 的 准确 率 ， 而 用 测试 数据 测试 时 ， 准 确 率 却 大 打折 扣 。 这 种 情况 称 之 为 过 拟 合 ， 过 拟 
合 在 神经 网 络 的 训练 数据 不 足 而 网 络 的 参数 又 太 多 的 时 候 更 加 明显 。 原则 上 认为 , 出现 
过 拟 合 的 模型 是 没有 参考 价值 的 ， 所 以 训练 中 要 避免 得 到 过 拟 合 的 模型 。 丢 弃 法 
(dropout)， 用 来 解决 过 拟 合 问 题 。 在 神经 网 络 迭 代 训 练 时 ， 使 用 dropout 让 每 个 神经 
元 有 一 定 的 概率 停止 工作 。dropout 的 工作 原理 如 图 2 所 示 。 
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图 2. (a) 使 用 dropout 前 ，(b) 使 用 dropout 后 

应 用 dropout 之 后 的 网 络 在 每 次 的 训练 中 , 有 一 部 分 的 神经 元 在 训练 时 会 被 暂时 忽 
略 掉 ,这 些 神经 元 不 会 参与 该 次 训练 , 而 此 时 的 网 络 只 会 更 新 那些 未 被 忽略 的 神经 元 的 
Bi-LSTM -CRF 模型 实现 中 文 命名 实体 识别 
3.1 实验 数据 预 处 理 
3.1.1 数据 集 

MSRA 中 文 新 闻 数 据 集 ， 该 数据 集 是 Microsoft Research Asia 推出 的 关于 中 文 命 
实体 识别 的 数据 集 ， 其 中 主要 包括 : 地 名 、 机 构 名 和 人 名 ， 采 用 的 标签 策略 是 BIO， 训 
练 集 含有 42000 个 句子 ，3.4k+ 个 地 名 (LOC)，1.9k+ 个 机 构 名 (ORG)，1.6k+ 个 人 名 

(PER) 。 验 证 集 和 测试 集 的 大 小 大 约 是 训练 集 的 十 分 之 一 。 

3.1.2 数据 处 理 

1. 读 取 语 料 和 标签 信息 ， 建 立 词汇 和 标签 的 映射 词典 ， 以 下 为 标签 及 其 映射 示例 。 

{0O': 0,'B-ORG': 1, |-PER': 2, 'B-PER': 3, 1-LOC': 4, |-ORG': 5, 'B-LOC.': 6} 

2. 分 别 加 载 训练 集 、 验 证 集 和 测试 集 。 选 用 BertTokenizer 将 纯 文本 转换 为 编码 ， 
该 过 程 不 涉及 将 词 转换 成 为 词 向 量 , 仅仅 是 对 纯 文 本 进行 分 词 , 并 且 添 加 [MASK]、[SEP]、 
[CLS] 标 记 ， 然 后 将 这 些 词 转换 为 字典 索引 。 

经 过 处 理 的 数据 包含 三 个 部 分 : 

。 input_ids: 词 汇 转化 为 编码 的 矩阵 ， 使 用 pad=0 填充 。 

。 lapel_ids: 对 应 标签 转化 为 编码 的 矩阵 ， 使 用 pad=0 填充 。 

。 ”mask : 输入 序列 中 有 效 词汇 的 位 置 标记 为 |， 其 余 为 0。 

3. 将 数据 集 进行 封装 为 Dataset 形式 。 
3.2 评估 方法 

。 “Precision :精确 率 又 叫 查 准 率 ， 表示 预测 结果 为 正 例 的 样本 中 实际 为 正 样 本 的 


比例 。 
。 “Recall ; 召回 率 又 被 称 为 查 全 率 ， 表 示 预 测 结果 为 正 样本 中 实际 正 样本 数量 占 
全 样本 中 正 样本 的 比例 。 


。 ”Fl1_score : 精确 紊 和 召回 率 的 一 个 加 权 平 均 。 


Precision * Recall 
Precision + Recall 


。 ”Accuracy : 准确 率 表 示 分 类 正确 的 样本 占 总 样本 个 数 的 比例 。 


。 多 分 类 macro、micro、weighted : 在 多 分 类 任务 中 ， 每 一 个 类 别 都 有 一 组 
precision 、recall、F1 分 数 ， 需 要 平衡 各 类 别 的 分 数 得 到 全 局 的 评价 指标 
。 macro : 宏观 ， 单 个 类 别 计算 完 之 后 取 平 均 ， 不 考虑 类 别 不 平衡 问题 。 
。 ”micro : 微观 ， 所 有 样本 做 一 个 整体 ， 分 母 为 所 有 样本 个 数 。 
。 ”weighted : 按 真实 值 中 各 类 别 个 数 取 权 重 。 
3.3 实验 参数 设置 
训练 按照 四 步 走 策略 开展 : 
. 计算 当前 网 络 权重 下 的 正 向 输出 结果 和 实际 结果 的 损失 ; 
. 梯度 置 为 0， 防止 梯度 累计 ; 
. 反 向 传播 ; 
. 梯度 下 降 ， 执 行 参数 更 新 ; 
5. 采用 一 轮训 练 ， 一 轮 测试 的 方式 。 
参数 配置 : 
- embed_size=100 : 能 入 层 大 小 
- hidqden_size=128 : 隐藏 层 大 小 
- num_layer=1 : LSTM 的 层 数 
- Ir=0.001 : 学 习 率 
- optimizer=Adam : 优化 器 
- loss=CrossEntropyLoss : 交叉 炉 损 失 函 数 
3.4 实验 结果 分 析 
3.4.1 学 习 率 
在 学 习 率 为 0.001 时 ， 曲 线 变化 更 加 平滑 ， 能 得 到 效果 更 好 的 模型 。 
3.4.2 Dropout 值 
在 初始 的 实验 中 出 现 过 拟 合 的 情况 ， 在 不 同 dropout 值 下 进行 了 实验 。 
Train/Valid Loss 
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图 3. 未 使 用 dropout 的 loss 曲线 
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4. Dropout=0.5 时 的 loss 曲线 
从 图 中 可 以 看 出 , 使 用 dropout 效果 比 无 dropout 效果 好 ， 本 文选 用 dropout=0.5 开展 
实验 。 此 外 ， 尽 管 使 用 dropout 减少 了 过 拟 合 的 情况 ， 但 模型 仍然 过 拟 合 。 因 此 在 任务 中 使 
用 L1 正则 化 参数 进行 了 实验 ， 但 发 现 尽 管 模型 拟 合 很 好 ， 但 预测 精确 率 等 参数 显著 降低 ， 
因此 放弃 使 用 L1 参数 。 
Train/Valid Loss 
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5. 使 用 L1 正则 化 参数 后 的 loss 曲线 


3.4.3 其 它 指标 
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6. 训练 了 20 个 epoch 的 loss 曲线 


precision recall fl-score support 
LOC 0.8981 80.8587 80.8780 2597 
ORG 8.7847 8.7867 8.7827 1172 
PER 989.8656 0.8276 98.8459 1276 
micro avg 0.8627 0.8327 8.8474 5639 
macro avg 08.8493 8.8223 8@.8355 5639 
weighted av8g 8.8634 0.8327 8.8477 5639 
图 7. 精确 率 、 召 回 率 、F1 分 数 等 指标 
高 举 爱 国 主义 和 社会 主义 两 面 旗 帜 ， 团 结 全 体 成 员 以 及 所 联系 的 归侨 、 侨 眷 ， 发 扬 爱 国 革命 的 光荣 传统 ， 为 统一 祖国 、 
test data: 
LOC: 中 华 
ORG: 致 公 党 中 央 
ORG: 中 共 中 央 
ORG: 国务 院 
pred result: 
LOC: 中 华 
0RG: 致 公 党 中 央 
ORG: 中 共 中 央 
ORG: 国务 院 


8. 预测 示例 
3.4.4 实验 结果 分 析 
评价 指标 分 析 结 果 表明 ，ORG 的 识别 率 低 ， 可 能 是 复合 词 占 比较 高 ， 组 织 名 中 包 
含 人 名 或 地 名 ， 造 成 识别 错误 。 如 “ 美 中 关 系 全 国 委 员 会 ”-> “ 美 中 ” 和 “全 国 委员 
会 "。 且 查看 CRF 状态 转移 特征 发 现 : 存在 1-LOC->B-ORG 和 |-PER->B-ORG 的 状态 
转移 , 表明 模型 学 习 到 的 数据 集中 包括 这 两 个 特性 , 组 织 名 中 包含 人 名 和 地 名 造成 识别 
错误 的 可 能 确实 存在 。 


Fop likely transitions : 
I-ORG -> I-ORG 6.266624 


B-PERE > 1 RERQN329129506 
PER > T= -PER 026068346 
0 -> A 3.568464 
B-ORG -> I-ORG 3.428959 
EL 上 EGG 9 > 1T L006 25929716 
BEQ0G0 -> L060 2.910829 
0 -> B-ORG 1.491918 
0 -> "B=PBERY .0-588304 
0 =>B-E0G9 0410751 
EN > 0 -0-077332 
EEO > DE -8.678167 
EPERE 20 -896.692689 
E=ORGIEE> -0.248649 


LPER -2B BER 005745519 
B=EQG 9 > B=L0€ -90:9275907 
I=E0C6 9 > B=ORG -1.144386 
FT PERE > BORG 1279218 
I-ORG -> B-ORG -1.338860 
BO >0 935 


图 9. CRF 状态 转移 特征 

任务 中 存在 过 拟 合 且 准确 率 较 低 的 原因 可 能 是 使 用 的 数据 集 偏 小 , 对 于 需要 大 量 样 
本 的 深度 学 习 而 言 ， 样 本 略 少 。 从 场景 来 说 ， 如 果 需 要 识别 的 任务 不 需要 太 依赖 长 久 的 
言 息 ， 此 时 RNN 等 模型 只 会 增加 额外 的 复杂 度 。 
结论 

随 着 通信 技术 和 互联 网 的 发 展 的 突飞猛进 ， 互 联网 的 数据 规模 一 直 在 不 断 的 扩张 ， 
这 些 数 据 虽 然 一 含 了 大 量 可 以 被 利用 的 信息 , 但 是 却 常常 因 其 非 结构 化 的 形式 而 很 难 被 
直接 利用 。 信息 抽取 作为 文本 信号 处 理 的 重要 研究 领域 ,其 主要 研究 目标 便 是 通过 计算 
机 从 非 结 构 化 的 数据 中 自动 提取 结构 化 的 信息 。 命 名 实体 因为 是 这 些 结构 化 信息 中 的 重 
要 组 成 部 分 。 能 准确 地 对 其 进行 识别 将 会 直接 影响 信息 抽取 技术 的 准确 性 。 此 外 ， 对 中 
文 语 料 的 命名 实体 识别 研究 主要 在 集中 在 国内 , 而 国内 的 技术 起 步 相 较 于 一 些 发 达 国 家 
要 晚 ， 技术 也 相对 陈旧 , 所 以 对 命名 实体 识别 尤其 是 对 中 文 命名 实体 识别 的 研究 具有 非 
常 重要 的 价值 与 意义 。 

本 任务 使 用 的 中 文 命名 实体 识别 模型 是 基于 深度 学 习 的 Bi-LSTM-CRF 模型 ， 最 终 
实现 的 f 值 为 84%。 但 是 由 于 数据 集 等 限制 , 本 任务 仍然 有 一 些 值得 进一步 研究 的 方向 。 
未 来 优化 的 方向 在 于 扩大 数据 集 、 根 据 实际 数据 做 出 模型 调整 或 者 优化 模型 架构 。 


